首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏焱融科技

    「深度解析」AI训练数据缓存

    深度学习或者AI的出现,改变了我们以往的解决问题的编程方式,不再是代码上直观的表达。 举一个简单的例子,我们如何识别一个数字(图片)是数字9呢?非常直观的方法就是上面有一小圆圈,下面有一个竖线。 AI中有三大核心:算法,算力,数据(存储)。算法自有成熟的框架,由数学科学家去解决;计算能力由CPU甚至GPU去解决。 01 深度学习训练的基本知识 深度学习训练任务(Deep Learning Training DLT)会将训练数据作为输入,从千丝万缕的线索中通过学习并得到一个输出模型来代表训练数据。 假设训练数据有100万个文件,那么会维护一个包含每一个文件索引的列表,并对它进行随机的排列,随后根据mini-batch的数据量向后端存储获得数据,当全部的数据都完整遍历训练一次,一个epoch完成。 03 缓存的设计 总结起来深度学习的特点: 需要的数据量大 多台机器多个训练并行 每个训练要运行多次 在每次训练中,所有的数据需要遍历一遍 针对不同的训练参数,以及在不同的机器上运行的训练任务,数据集相对保持固定

    1.6K40发布于 2020-07-03
  • 来自专栏小洁叫你mysql

    数据采集助力AI大模型训练

    引言    AI技术在今天已经是我们工作生活中不可或缺的工具,很多小伙伴也在致力于训练AI模型。 通过专业的代理IP服务配合高效的数据采集工具,能够为AI大模型训练提供稳定、可靠且合规的数据支持。 无论是数据采集新手还是资深开发者,都能快速上手,高效获取所需数据。接下来,我们将通过两个实际案例,分别体验亮数据的抓取浏览器和AI训练数据集,看看它们如何简化数据采集流程,助力AI模型训练AI训练数据   在AI模型训练过程中,数据采集往往是最耗时耗力的环节。 所有数据都经过专业的清洗和结构化处理,确保可直接用于模型训练,大幅提升AI项目的开发效率。   接下来我们一起选购AI数据集。

    70210编辑于 2025-04-02
  • ​爬虫+动态代理助力 AI 训练数据采集

    引言近年来,AI 技术飞速发展,很多朋友都投身于 AI 模型的训练。然而,相较于模型的获取,高质量的数据往往更加难以收集。 借助其代理服务,我们可以显著提高爬虫程序的访问成功率,从而更高效地获取数据,助力 AI 模型的训练。 维基百科是 AI 领域的重要数据来源,广泛用于训练 RoBERTa、XLNet 和 LLaMA 等大模型。 本次,我们将以采集维基百科数据为例,分别面向零经验的初学者和熟练开发者介绍如何结合爬虫技术与动态代理,高效获取训练数据。 /li/a/text()'): temp})with open('wiki_sport.txt', 'w') as f: f.write(str(result))总结在 AI 训练的道路上,高质量的数据是不可或缺的

    57510编辑于 2025-03-19
  • GitHub将用户数据用于AI训练

    GitHub调整策略:决定将用户数据用于AI训练自4月24日起,除非你选择退出,否则你的数据将被用于训练“章鱼猫”某机构旗下的GitHub计划从下个月开始使用客户交互数据——特别是“输入、输出、代码片段及相关上下文 ”——来训练AI模型。 要选择退出,GitHub用户应访问 /settings/copilot/features 并在“隐私”标题下禁用“允许GitHub使用我的数据进行AI模型训练”。 根据产品官的说法,这一变更的理由是交互数据能使公司AI模型表现更好。他声称,添加来自某机构员工的交互数据带来了有意义的改进,例如AI模型建议的接受率提高了。 这种表述表明,数据饕餮的AI之马(可以这么说)早已跑出了马厩。此时关门并不能改变这样一个事实:AI行业是建立在未经强烈同意表示就收集的数据之上的。FINISHED

    25910编辑于 2026-04-04
  • 来自专栏机器学习与生成对抗网络

    基于AI数据增广:生成数据作为训练样本

    Benchmarking and Analyzing Generative Data for Visual Recognition 大型预训练生成模型的进展,扩展了它们作为有效数据生成器在视觉识别中的潜力 2)CLER分数:为了解决现有度量指标(如FID,CLIP分数)与下游识别性能之间的不足相关性,提出了CLER,一种无需训练的度量,用于指示生成数据训练前对于识别任务的效率。 数据增强技术通过人工增加训练样本的数量来解决这个问题,但这些技术通常产生有限结果。 为解决这个问题,越来越多的研究提出使用深度生成模型生成更真实和多样化的数据,以符合数据的真实分布。 关注公众号【机器学习与AI生成创作】,更多精彩等你来读 卧剿,6万字!30个方向130篇!CVPR 2023 最全 AIGC 论文! 一口气读完 深入浅出stable diffusion:AI作画技术背后的潜在扩散模型论文解读 深入浅出ControlNet,一种可控生成的AIGC绘画生成算法!

    76510编辑于 2023-08-22
  • 来自专栏AI

    AI训练师入行指南(四):模型训练

    ——从璞玉到珍宝:数据雕刻师的终极修炼 一、开篇在《指南(三)》中,我们根据场景选择了合适的AI模型——就像选定了雕刻和田玉的工具与技法。 现在,我们正式进入训练阶段:用特定数据集将模型从粗坯打磨成传世珍宝。 “用翡翠原石雕佛像,用和田玉刻印章——特定数据集就是AI模型的专属玉料。” 数据集的核心价值领域适配性:用医疗影像数据训练的模型,能识别癌症结节;用电商评论训练的模型,能感知用户情绪波动。 质量决定上限:标注精准的1000条数据,胜过混乱的10万条噪声数据。 成熟AI模型案例解析(1) DeepSeek-Chat(深度求索)数据燃料:千万级高质量中文对话数据(含代码、百科、小说) 训练成果:能生成符合中文语境的代码注释,甚至写出“鲁迅风格”的段子。 真正的AI匠人懂得:用正则化约束过拟合野马,以混合精度在有限资源中雕琢精品——这不是塑料玩具的组装,而是用数据刻刀打磨智能传世珠宝。

    80010编辑于 2025-03-31
  • 来自专栏FreeBuf

    AI领域的预训练与自训练

    最近一年,AI领域出现了很多迁移学习(transfer learning)和自学习(self-learning)方面的文章,比较有名的有MoCo,MoCo v2,SimCLR等。 半监督方法的代表是自训练,其使用少量的标记数据和大量的未标记数据对模型进行联合训练。 自训练可以分为5个步骤: 使用少量带有标签的数据训练模型 使用步骤1中得到的模型对未标记数据进行预测,预测结果作为伪标签 将标记数据和未标记数据结合标签和伪标签一起训练模型 在测试集上评估模型 重复1- 在此使用Imagenet当作未标记的数据(不使用标签),而COCO数据集当作标记数据对预训练模型进行联合训练,以此更好的改善最终目标检测的效果。作为与监督预训练的对比结果如下: ? 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ? 不同数据增强模式下基线、监督式预训练、自训练式预训练下的目标检测结果对比 ?

    1.9K10发布于 2020-11-16
  • 来自专栏AI

    AI训练师速成攻略(二):数据收集与清洗

    一、从原生态矿山里淘金子如果说训练AI是养孩子,那么数据就是奶粉——但这里没有超市货架上整齐排列的进口奶粉,只有混杂着石子、过期品和宝藏的原生态矿山。 二、数据矿脉勘探指南1. 找矿脉(1) 矿脉定位法则目标导向:给电商AI数据?先锁定用户评价、商品图片、购买记录三座富矿场景预判:训练医疗影像AI? 采矿许可证办理目标:训练情感分析AI合规准备:注册爬虫代理IP,设置1秒/次请求间隔2. ,请记住:每个优秀AI的背后,都有一群与脏数据搏斗的训练师。 当看到自己训练AI准确识别出罕见病例,或是在海量评论中抓住产品缺陷时,你会明白:数据清洗不是枯燥的体力活,而是赋予机器智慧的炼金术。现在,拿起你的数字筛子,去创造属于智能时代的黄金传说吧!

    70310编辑于 2025-03-27
  • 来自专栏IT技术订阅

    数据仓库技术栈及与AI训练关系

    数据仓库与AI训练之间存在紧密的联系,主要体现在以下几个方面: 1. 数据准备与预处理:AI模型训练的第一步通常是数据准备,数据仓库作为集中存储和管理企业数据的平台,为AI训练提供了丰富的数据来源。 通过ETL(抽取、转换、加载)过程,数据仓库可以对原始数据进行清洗、整合、标准化,生成高质量的训练数据集,这对于提高AI模型的准确性至关重要。 2. 模型部署与监控:训练好的AI模型可以部署回数据仓库或与之集成,以便在实际业务中应用。数据仓库可以作为模型服务的一部分,提供实时或近实时的数据输入,支持模型的预测和决策输出。 决策支持与洞察发现:AI模型训练的结果可以增强数据仓库的分析能力,通过智能预测、分类、聚类等手段,为决策支持系统(DSS)和在线分析处理(OLAP)提供更加精准和深入的洞察。 综上所述,数据仓库为AI训练提供了坚实的数据基础和处理平台,而AI技术的应用又进一步提升了数据仓库的价值,两者相辅相成,共同推动企业智能化转型和决策效率的提升。

    74710编辑于 2024-05-20
  • 来自专栏AI

    DeepSeek NSA:突破数据瓶颈,开启AI模型训练新范式

    近日,中国AI公司深度求索(DeepSeek)发布了一项名为神经缩放增强(Neural Scaling Augmentation, NSA)的技术,通过创新的数据生成与模型优化方法,为突破现有训练瓶颈提供了全新的解决方案 DeepSeek NSA的核心创新在于将数据生成与模型训练深度融合: 动态数据合成引擎:通过预训练模型分析现有数据分布,生成符合任务需求的高质量合成数据,同时引入对抗性样本以增强鲁棒性; 缩放感知训练框架 在应用层面,医疗领域可基于少量病例数据构建诊断模型,制造业能利用合成数据模拟罕见故障场景;在生态层面,该技术降低了AI研发门槛,使资源有限的企业也能参与创新竞争。 更重要的是,NSA为探索“小数据大模型”路径提供了实证案例——未来AI发展或许不必一味追求参数量的增长,而是通过算法革新释放现有数据的潜力。 结语DeepSeek NSA的诞生标志着AI基础研究从“暴力缩放”向“智能缩放”的转型。随着合成数据生成、模型高效训练等技术的成熟,人工智能有望摆脱对数据规模的过度依赖,进入更可持续的发展阶段。

    79700编辑于 2025-02-18
  • 来自专栏机器之心

    超越ImageNet预训练,Meta AI提出SplitMask,小数据集也能自监督预训练

    编辑:陈萍 大规模数据集对自监督预训练是必要的吗?Meta AI 认为,小数据集也能自监督预训练,效果还不错。 当今应对数据匮乏问题的主流学习范式是,即先在大型数据集(如 Imagenet )上对模型进行预训练,之后基于特定的任务以较少的数据集微调模型。 尽管这种方法取得了成功,但我们很难将这种大规模标签数据集提供的好处与预训练范式的局限性区分开来。除此以外,在一个数据集上预训练模型并在另一个数据集上对其进行微调会引入差异。 来自 Meta AI 等机构的研究者,考虑了一个仅利用目标任务数据的自监督预训练场景。所用数据集包括如 Stanford Cars、Sketch 或 COCO,它们的数量级小于 Imagenet。 InfoNCE 损失 [59] 应用于这些表示: 实验 首先,实验研究了计算机视觉模型在各种数据集上的预训练和微调,详见表 3,表中列出了数据集名称、训练和测试数据分布等信息。

    82240编辑于 2022-02-18
  • 来自专栏云云众生s

    用于训练多模态AI模型的5个有用数据

    然而,构建有用的多模态AI模型需要高质量的多模态数据集,这些数据集是训练这些多功能系统的必要燃料——使它们能够超越单一维度或模式,扩展对世界的理解。 例如,图像字幕任务需要一个结合图像和相关描述性文本的训练数据集,这可以用来训练AI模型。训练过程结束后,就可以部署AI模型,利用自然语言处理和计算机视觉技术识别新图像的内容并生成相关的文本。 该数据集的庞大规模意味着模型可以更广泛地掌握现有的科学和技术研究在线语料库。根据研究团队的说法,目标是创建一个包含“图像和文本的自由形式交错序列”的数据集,适合训练大型多模态AI模型。 许可证:CC-BY-4.0 结论 新的数据集不断涌现,以下是一些其他值得一提的近期多模态数据集: BigDocs:这个开放且“许可宽松”的数据集旨在训练用于从文档中提取信息的模型,使用增强的OCR、布局和图表分析以及表格检测 这些只是大量可用多模态数据集中的少数几个——更不用说也日益受到关注的多语言数据集了。有如此多的选择,找到合适的训练AI模型的数据集相对容易。

    1.7K10编辑于 2025-01-17
  • 来自专栏企鹅号快讯

    AI训练数据缺失怎么办?Nvidia:全靠“想象力”

    英伟达研究人员使用一对生成的对抗网络(GAN)和一些无监督学习来创建一个图像到图像的翻译网络,可以减少 人工智能 (AI)的训练时间。 在一篇博文中,该公司解释了其GAN是如何在不同的数据集上进行训练的,他们分享了一个“潜在的空间假设”,允许将图像从一个GAN传递到下一个,从而生成图像。 这项工作的好处可以让网络培训需要更少的标签数据。 英伟达说:“对于单独的自动驾驶驾车,训练数据可以被捕获一次,然后在各种虚拟条件下进行模拟:晴天,阴天,下雪,下雨,夜间等。 在第三季度,英伟达公布的季度营收为26.4亿美元,其中数据中心部门的销售额相比去年同期销售额翻了一番,收入从2.40亿美元达到了5.01亿美元。

    75400发布于 2017-12-25
  • 问答AI模型训练前的必做功课:数据预处理

    架构,他有Transformers库,训练手段有peft(参数高效微调),他有peft库。 ('squad_v2') 下载下来的数据集可能已经拆分了训练集,测试集等,我们可以根据实际情况选择需要用哪一部分,此外不同的数据集也会有不同的features,比如对话的数据集可能有question和answer [UNK]: (ID 100) - 这是未知(Unknown)token,用于代替那些在训练期间未出现过或不在词汇表中的词汇。 [MASK]: (ID 103) - 这是掩码(Mask)token,主要用于模型训练的掩码语言模型(Masked Language Model, MLM)任务。 喜欢折腾技术,AI是个人爱好驱动去学习的。但不管是Java还是AI还是其他非技术行业的知识,我都希望能和大家共同学习进步,如果文章有用,还请大家点击关注,希望我们能一起在技术的道路上走的更远!

    65610编辑于 2025-04-08
  • 来自专栏ATYUN订阅号

    IBM的Lambada AI为文本分类器生成训练数据

    编辑 | KING 如果数据科学家缺乏足够的数据训练机器学习模型,该怎么办? IBM Research的研究人员在新发表的论文中主张使用合成数据。 他们使用了经过预训练的机器学习模型来人工合成用于文本分类任务的新标签数据。 根据目前的情况,要寻找适合的分类器模型,可能需要大量的标记数据。但是,在许多情况下,尤其是在为特定应用开发AI系统时,标记数据很少且获取成本很高。 研究人员指出,在文本域中生成合成训练数据比在视觉域中更具挑战性,因为在更简单的方法中使用的转换通常会使文本失真,从而使其在语法和语义上不正确。 相应地,他们在上述数据集上训练了分类器,并对其进行了过滤,从而在对现有数据和合成数据进行重新训练之前,仅保留看起来“足够定性”的数据。 ?

    1.3K20发布于 2019-11-18
  • 来自专栏爬虫资料

    AI大模型训练数据告急?用Redis+动态代理采集数据

    随着大语言模型(LLM)参数量飙升到万亿级别,高质量的公共数据已经被各家大厂“刮地三尺”。想要获取更垂直、更新鲜的行业数据,必须深入互联网的毛细血管。 分布式爬虫的“最强大脑”在分布式架构中,我们需要多台服务器(Worker)同时去抓取数据。这就引出了一个核心问题:如何保证大家不抓重复的网页?又如何把成千上万的URL分配给不同的机器? URLurl=task[1]#将任务提交给线程池异步执行executor.submit(fetch_data,url)defseed_master_urls():"""模拟Master主节点:负责生产数据 传统的pop如果取不到数据会返回空,你需要写一个死循环加time.sleep。而blpop在队列为空时会自动休眠线程,直到Master推入新数据,它会立刻被唤醒,最大程度节约了系统资源。 这套架构具备极强的横向扩展能力,能为你源源不断地输送高质量的AI训练语料。

    20310编辑于 2026-03-02
  • 来自专栏AI系统

    AI系统】感知量化训练 QAT

    QAT 的流程如下图所示,首先基于预训练好的模型获取计算图,对计算图插入伪量化算子。准备好训练数据进行训练或者微调,在训练过程中最小化量化误差,最终得到 QAT 之后对神经网络模型。 之所以称之为“fake”量化,是因为它们对数据进行量化并立即反量化,添加了类似于在量化推理过程中可能遇到的量化噪声,以模拟训练期间量化的效果。 正向传播 在正向传播中,FakeQuant 节点将输入数据量化为低精度(如 INT8),进行计算后再反量化为浮点数。这样,模型在训练期间就能体验到量化引入的误差,从而进行相应的调整。 为了求得网络模型 tensor 数据精确的 Min 和 Max 值,因此在模型训练的时候插入伪量化节点来模拟引入的误差,得到数据的分布。 如下图所示: BN 折叠 在卷积或全连接层后通常会加入批量归一化操作(Batch Normalization),以归一化输出数据

    1.6K10编辑于 2024-12-06
  • 来自专栏AI系统

    AI系统】并行训练基本介绍

    分布式训练是一种模型训练模式,它将训练工作量分散到多个工作节点上,从而大大提高了训练速度和模型准确性。虽然分布式训练可用于任何类型的 AI 模型训练,但将其用于大模型和计算要求较高的任务最为有利。 本篇幅将围绕在 PyTorch2.0 中提供的多种分布式训练方式展开,包括并行训练,如:数据并行(Data Parallelism, DP)、模型并行(Model Parallelism, MP)、混合并行 具体来说,这些功能的实现可以分为三个主要组件:分布式数据并行训练(DDP)是一种广泛采用的单程序多数据训练范式。在 DDP 中,模型会在每个进程上复制,每个模型副本将接收不同的输入数据样本。 基于 RPC 的分布式训练(RPC)支持无法适应数据并行训练的通用训练结构,例如分布式流水线并行、参数服务器范式以及 DDP 与其他训练范式的组合。 通过充分利用这些分布式训练组件,开发人员可以在各种计算要求和硬件配置下高效地训练大模型,实现更快的训练速度和更高的模型准确性。

    70210编辑于 2024-12-07
  • 来自专栏人工智能小白

    AidLux智慧社区AI实战训练

    AidLux智慧社区AI实战训练 一、主要目标 围绕智慧社区基本定义、场景需求理解、算法设计实现、边缘设备部署等核心要点,利用边缘设备AidLux,带大家完成智慧社区里面的两个典型场景:高空抛物和车牌识别的算法开发 二、主要内容 1) 智慧社区的各类场景算法的划分; 2) 智慧社区项目落地方式; 3) 边缘设备在智慧社区中的应用场景; 4) 高空抛物场景算法设计及实现; 5) 车牌数据集整理及训练; 6) 车牌识别算法部署及验证 vd_source=fbbf0424880919cc7d918ef607fef2e6 五、心得体会 通过AidLux智慧社区AI实战训练课程的学习,掌握了智慧社区基本定义、面向应用场景的算法设计及实现、

    77300编辑于 2023-03-05
  • 来自专栏人人都是极客

    4.训练模型之准备训练数据

    终于要开始训练识别熊猫的模型了, 第一步是准备好训练数据,这里有三件事情要做: 收集一定数量的熊猫图片。 将图片中的熊猫用矩形框标注出来。 将原始图片和标注文件转换为TFRecord格式的文件。 最后需要将数据集切分为训练集合测试集,将图片文件打乱,然后按照 7:3 的比例进行切分: random.seed(42) random.shuffle(all_examples) example.features.feature['image/object/class/label'].int64_list.value, [1]) 后台回复“准备训练数据 最后还需要一个 label map 文件,很简单,因为我们只有一种物体:熊猫 label_map.pbtxt: item { id: 1 name: 'panda' } 训练一个熊猫识别模型所需要的训练数据就准备完了 ,接下来开始在 GPU 主机上面开始训练

    2.3K80发布于 2018-03-16
领券